Un cours sur :
■ Les statistiques appliquées à la cartographie.
■ Et les méthodes de discrétisation.
■ Avec une séance de TD pour appliquer les acquis
Dans le détail :
■ Principes de la discrétisation en cartographie : pourquoi et quand discrétiser ?
■ Traiter l’information statistique de manière simple, pour l’adapter au message cartographique
■ Discrétiser en fonction des besoins et de la forme de la série.
■ Choisir le nombre de classes.
■ Comment comparer des cartes avec les mêmes unités.
■ Ou avec des unités différentes.
■ Transformer si besoin les séries
En cartographie et en statistique, il est parfois nécessaire de simplifier l'information à transmettre.
■ Notamment lorsque la quantité d'information à représenter est très importante.
■ La réduction de l'information au sein de classes est appelée la discrétisation.
Réduire l'information en transformant des données continues ou déjà discrètes en classes d'intervalles distinctes, couvrant l'ensemble de la série statistique initiale
L'œil humain n'est pas en mesure d'associer un chiffre précis à la variable visuelle valeur (à l'inverse de la taille+forme). Seule la notion d'ordre est "innée" avec le rapport de noir et blanc sur une surface donnée.
Pour avoir associée à un niveau de gris un chiffre, il faut donc discrétiser
Le rôle du cartographe est de déterminer en amont de la production cartographique la "meilleur" discrétisation. Pour cela, il faut :
Se poser les questions :
■ faut-il mettre en avant la répartition spatiale la plus conforme à la répartition statistique ?
■ Ma carte sera-t-elle comparée à une autre ?
■ Dans le temps ?
■ Avec des données de même nature ?
■ Est-ce que mon public à besoin d'une discrétisation "simple", quitte à perdre une partie de l'information statistique.
Analyser la distribution statistique
■ En la résumant par les valeurs centrales.
■ Puis par les paramètres de dispersion.
■ En fonction des interprétations, la méthode de discrétisation peut-être choisie et justifiée.
L'analyse univariée permet alors de visualiser les spécificités de la série (mode, symétrie, valeurs extrêmes...) ainsi que le résumé et la dispersion des données.
Il est essentiel de comprendre les caractéristiques de la distribution de la ou des séries de données avec les outils de l’analyse univariée : :
Dans le cas contraire, vous risquez d’avoir une carte n’apportant que très peu d'information, car la discrétisation sera mal adaptée au message cartographique
Attention, il faudrait normalement que la première et la dernière classe soient regroupées sur l'histogramme
Certaines contraintes peuvent s'ajouter et complexifier la discrétisation
■ besoin de visualiser à un instant $t$ un phénomène (le plus simple).
■ Besoin de comparer des données identiques à deux dates.
■ Besoin de comparer des données différentes.
En cartographie, le découpage en classes d’une série de données suit les mêmes règles qu’en statistique :
Concept : même nombre d’individus dans chaque classe
Construction : nombre total d'individus (les départements) / nombre de classes souhaités
Avantages :
■ Très facile à réaliser.
■ Facilement compréhensible par le lecteur.
■ Permet de comparer la position des individus géographiques dans différentes distributions (ordre de grandeur). Les bornes de classes ne seront pas les mêmes.
■ Applicable à toutes les formes de distributions.
Inconvénients :
■ Risque de perte d’information sur la forme de la distribution.
■ Ne met pas forcément en évidence les valeurs extrêmes (max, min).
Concept : Pour contourner le problème des valeurs extrêmes non mises en évidence avec les quantiles, Philcarto propose une méthode dite Q6. Ce sont des quartiles, mais la première classe contient les cinq pourcents valeurs les plus petites et non 25%, la dernière classe les cinq pourcents valeurs les plus fortes.
Construction : [Min : 5%[ U [5% ; 25%[ U [25% ; 50%[ U [50% ; 75 %[ U [75% ; 95 %[ U [95% : max]
Avantages :
■ Facile à réaliser (Quartiles ajustés).
■ Mise en évidence des valeurs extrêmes.
■ Permet de comparer la position des individus géographiques dans différentes distributions (ordre de grandeur). Les bornes de classes ne seront pas les mêmes.
■ Applicable à toutes les formes de distributions.
Inconvénients :
■ Risque de perte d’information sur la forme de la distribution (mais moins que pour des quantiles).
■ Moins compréhensible par le lecteur que les quantiles (peu utilisées).
Concept : Les classes ont la même étendue (de 10 en 10, de 5 en 5 etc.)
Construction : (max – min) / nombre de classes souhaités
Avantages :
■ Très facile à réaliser.
■ Facilement compréhensible par le lecteur.
■ Efficace sur les distributions uniformes.
Inconvénients :
■ Très mal adaptée à une distribution non uniforme.
■ Succeptible de créer des classes vides.
Concept : Les classes se basent sur les propriétés de la loi normale. La moyenne est de préférence au centre d’une classe. L’amplitude de la classe correspond à l’écart type (0,5 σ, 1 σ, 1,5 σ)
Construction : [Min ; -1,5 σ[ U [-1,5 ; -0,5 σ[ U [-0,5 σ; +0,5 σ[ U [+0,5 σ; +1,5 σ[ U [+1,5, σ; Max]
Avantages :
■ A un sens sur les distribution gaussienne et permet dans ce cas un bon compromis géographique/statistique. Les classes extrêmes montrent les valeurs anormales, les classes centrales les valeurs proches de la normale.
■ Facilement compréhensible par le lecteur initié.
■ Permet la comparaison, si chaque série est gaussienne avec des moyennes et écart-type proches
Inconvénients :
■ Difficile à comprendre pour le lecteur non initié (propriétés de la loi normale).
■ Uniquement pour les distributions normales (transformation possible).
Construction : utilisation de l'algorithme de Jenks, qui minimise la variance intra-classe et maximise la variance inter-classe. Le cartographe peut "suivre" manuellement les coupures de l'histogramme, mais au prix d'une forte subjectivité (on parle de seuils naturels)
Avantages :
■ Permet un excellent compromis entre la transmission de l’information et la conservation des caractéristiques de la distribution statistiques
■ Les classes regroupent en leur sein les valeurs les plus semblables (minimise la variance intra-classe)
■ et elles sont le plus différentes possibles les unes par rapport aux autres (maximise la variance inter-classe)
Inconvénients :
■ Ne permet pas la comparaison de cartes si les bornes ne sont pas identiques.
■ Subjectif pour les seuils naturels. Deux personnes travaillant sur la même série de données n'auront pas forcément les mêmes résultats.
Pour les données de taux, la transmission du message est en grande partie liée à la discrétisation.
En cartographie, discrétiser une série statistique suppose donc un compromis entre :
■ La représentation et la transmission du message cartographique.
■ Des biais cognitifs interviendront dans la conception de la carte (vision du cartographe sur ce qu'il observe).
Ce qui conduit souvent à un nombre de classes en cartographie allant de 4 à 7
■ En dessous, l’information spatiale sera trop faible
■ Au-delà, la carte sera trop complexe à comprendre : trop d’informations visuelles
■ La longueur de la variable visuelle valeur ne permet pas à votre œil d'associer les différents niveaux de gris de la carte avec ceux de la légende.
Vous prendrez un minimum de risques avec une discrétisation en 5 classes.
■ A part en science physique, garder 10 chiffres après la virgule n'a pas trop d'intérêt
■ Dans la plupart des cas, arrondissez à un chiffre après la virgule, deux au maximum selon l'indicateur
■ Mais il faut arrondir en amont de la mise en page. Cela évitera qu'un individu se retrouve dans la mauvaise classe (dans un logiciel de cartographie, changer bornes de classes met à jour automatiquement le rendu. Ce n'est pas le cas d'un logiciel de dessin assisté par ordinateur)
Soit comparer des données de même nature : comparaison absolue
■ Une même valeur (niveau de gris) est associée à un même interval de classe entre les cartes à comparer
■ Les bornes de classes doivent donc être identiques
Ou comparer des données de natures différentes : comparaison relative
■ On compare la fréquence des individus de chaque classe
■ Une même valeur (niveau de gris) est associée à une même fréquence entre les cartes à comparer
■ On fait donc en sorte que les effectifs de classes des différentes séries soient identiques
Si on souhaite comparer des données identiques, une solution est de discrétiser avec des bornes de classes identiques entre les cartes : comparaison absolue.
Les même classes avec des bornes identiques et le même niveau de gris se retrouvent sur toutes les cartes
N'oubliez pas d'ajuster le min et le max de chaque série. Il est également possible d'ajouter ou supprimer des classes si nécessaire
Dans cet exemple, une discrétisation Jenks a été appliquée sur les données 2001 puis retranscrites pour 2009 :
Si on souhaite comparer des données différentes, les bornes de classes ne peuvent plus être identiques. On doit alors comparer la position relative des individus géographiques : comparaison relative
Les même classes avec des fréquences identiques et le même niveau de gris se retrouvent sur toutes les cartes
Il est évidemment possible d'utiliser une comparaison relative pour des données de même nature
Une discrétisation en quartile a été appliquée sur les deux séries de données :
La discrétisation des données de taux est obligatoire en cartographie. Il s'agit d'une limite physiologique, l'œil n'étant pas capable d'associer facilement à plusieurs valeurs de gris plusieurs données.
De nombreuses méthodes de discrétisation existent et le choix final dépend évidemment des étapes précédentes.
N’oubliez pas que vous pouvez faire des ajustements manuels sur la discrétisation (bornes des classes) si cela est justifié : soyez pragmatiques !
Vous ne voulez pas que l’on vous accuse d’avoir manipulé la discrétisation ?
Vous ne souhaitez pas comparer votre carte à une autre et voulez suivre au mieux la forme de la distribution ?
Vous devez faire une carte pour le grand public ?
Votre serie de données suit une loi normale et vous souhaitez montrer les individus géographiques « anormaux » ?
Vous voulez comparer des données de même nature ?
Vous voulez comparer des données de différentes natures ?
La discrétisation des données de taux est obligatoire en cartographie. Il s'agit d'une limite physiologique, l'œil n'étant pas capable d'associer facilement à plusieurs valeurs de gris plusieurs données.
De nombreuses méthodes de discrétisation existent et le choix final dépend évidemment des étapes précédentes.